通过nodejs来读取pptx内的图片

点点

2021-04-14 21:15 阅读 534 喜欢 0

大体思路

其实高版本的pptx 也好，docx也好，本质上是一个压缩文件，我们完全可以将他的后缀改为rar 或 zip 然后解压，就可以拿到里面的xml 或资源文件，所以，思路就是将文档通过jszip 解压获取内部的文件，然后读取xml 找到对应的关系，然后将image读取出来进行保存。

实现代码

/**

读取目录下的pptx 文件，并得到ppt的各个页面的截图数据，然后进行处理成为结构化数据。
@author chrunlee
/ const JSZIP = require('jszip'); const fs = require('fs'); const path = require('path'); const xml2js = require('xml2js'); /**
获取ppt内各个slide对应的图片路径，含多张图片
@param {Strin}} filePath pptx filepath

/ function getSliders (filePath/**pptx filePath */,targetFolder) { let data = fs.readFileSync(filePath) const zip = new JSZIP(); return new Promise((r, j) => { //加载pptx数据 zip.loadAsync(data).then(async zip => {

let files = Object.keys(zip.files).filter(t => {
  return t.startsWith('ppt/slides') && path.extname(t) == '.rels';
})
//做文件名排序
files.sort((a, b) => {
  let asq = path.basename(a).substr(0, path.basename(a).indexOf('.')).replace('slide', '');
  let bsq = path.basename(b).substr(0, path.basename(b).indexOf('.')).replace('slide', '');
  return asq - bsq;
})

let sliders = [];
for (let file of files) { 
  //读取xml内容
  let content = await zip.file(file).async('string');
  let obj = await xml2js.parseStringPromise(content);
  //获取关联关系
  let relationship = obj.Relationships.Relationship;//[[]]
  let arr = relationship.filter(ship => {
    return path.extname(ship.$.Target) == '.jpeg' || path.extname(ship.$.Target) == '.png'
  }).map(ship => {
    return {
      id: ship.$.Id.replace('rId',''),
      filePath: 'ppt/'+ship.$.Target.substr(3)
    }
  }).sort((a, b) => {
    return a.id - b.id;
  })
  sliders.push(arr);
}
//将图片进行存储，并返回真实路径
let fileArr = [];
fs.mkdirSync(targetFolder, { recursive: true });
for (let arr of sliders) { 
  let objarr = [];
  if (arr && arr.length > 0) { 
    for (let obj of arr) { 
      let stream = await zip.file(obj.filePath).async('nodebuffer');
      let realFilePath = path.join(targetFolder, path.basename(obj.filePath));
      fs.writeFileSync(realFilePath,stream);
      objarr.push({
        id : obj.id,filePath : realFilePath
      })
    }
  }
  fileArr.push(objarr);
}
r(fileArr);

}) })

} (async function () { let sliders = await getSliders('./蓝天空.pptx', 'd:/nodejs/toy/ppt转pptx读取/image/蓝天空/'); })(); 通过读取ppt/slides/_rels/***.rels文件，来获得该slide中对应的图片，找到对应的关系，然后通过jszip来获得该图片数据流进行保存。

大部分ppt中一页有多张图片是拼接起来的...其实就是多张图片合并为一张图片进行保存的（以后再讲）。实现方式还是通过gm来进行合并，命令超级简单..就是安装有点麻烦。

转载请注明出处: http://sdxlp.cn/article/nodejs 读取pptx.html

如果对你有用的话，请赏给作者一个馒头吧 ...或帮点下页面底部的广告，感谢！！

赞赏支持

喜欢